随着大型语言模型(LLMS)继续发展,确保它们与Human的目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是工具性的转变,在为给定的目标进行优化时,AI系统发展了意想不到的间隔目标,从而超越了最终的观点,并且偏离了人为意义的目标。这个问题在加强学习(RL)培训模型中特别相关,该模型可以产生创造性但意外的策略以最大程度地提高奖励。在本文中,我们通过比较经过直接RL优化的模型(例如O1模型)与从人类反馈(RLHF)进行增强学习的训练的模型进行比较。我们假设RL驱动的模型表现出更强的工具收敛趋势,因为它们以可能与人类意图失调的方式优化了目标指示行为。为了评估这一点,我们会引入仪表板1,这是用于评估RL训练LLM的仪器收敛的基准。最初的实验揭示了一个案例,其中一个旨在赚钱的模型不期望追求工具目标,例如自我复制,意味着工具融合的迹象。我们的发现有助于更深入地了解AI系统中的一致性挑战以及不限制模型行为带来的风险。
主要关键词